用AI“复制”另一个你?腾讯云推出2D真人小样本数智人,打造“AI+数智人工厂”

如果让你用一句话简单描述下腾讯的“数智人” ,你会想到什么?“它既可以是多才的员工,也可以是吸粉的明星代言人。”这是腾讯云智能数智人产品总经理陈磊的答案。

2022年9月,在央视播出的《闪亮的名字——2022最美教师发布仪式》上,腾讯数智人“云萱”以节目主持人的身份亮相,其通过真实生动的形象和专业的主持能力,给观众带来了一场亮点颇多的节目体验。同年,适逢中国国家博物馆创建110周年之际,腾讯数智人“艾雯雯”走进国博展厅,开启国博“打工人”新生活,并将在今后通过不断的学习,肩负国博形象代言人和具备多个工作岗位能力的员工的责任。

而在2023年4月25日,通过腾讯数智人的支持,数字经济学者刘兴亮以短视频“亮三点”为例,展示了他的首个数智人分身。

图丨刘兴亮用小样本数智人生产视频(来源:资料图)

“这个形象近似真人,表情、唇型匹配自然,包括我的特色口音也模拟得惟妙惟俏的数智人,正是腾讯云智能小样本数智人。未来,不需要搭建拍摄场地,也不用提前化妆彩排,不受空间、时间限制,数智人可以随时随地帮我生成口播视频,解放我的生产力。”刘兴亮如是说。

推出2D真人小样本数智人,只需24小时即可为用户打造出专属数智分身

腾讯自2018年起开始研发数智人,一直以来都将“更智慧、更懂行”作为发展方向。陈磊解释道:“一个通过AI技术,能够提升智能性,更智慧。第二个是更懂行,我们进入到各种各样的行业和场景,做深入的场景集成,使我们在行业的技术诀窍里形成很强的积累,提升行业的服务效能。”

综观旗下数智人的整体产品矩阵,其形象类型非常丰富,覆盖3D写实、3D半写实、3D卡通、2D真人、2D卡通五种风格,能够掌握数百种肢体动作和细腻的面部情感表情,支持内容生产、形象资产管理等方面的服务。

腾讯研究院高级研究员宋扬表示:“整个数字人围绕着两点,第一是好看的皮囊,第二是有趣的灵魂。”

2D真人风格分为精品和小样本两种模式。前者主要面向客服、虚拟IP形象等场景,成本约在数十万、百万级别,需要一个专业主播在录影棚录制一到两天,才能完成形象的打造。

而本次沟通会上推出的数智人,是2D真人小样本数智人。其也是根据真人形象定制,但普通人只需要录制3至5分钟的视频,就能够生成属于自己的数智分身,人工成本、时间和效益等已经迎来了极大的改善。

具体来说,用户只需提交少量的样本数据进行AI训练,比如3分钟真人口播视频、100句语音素材,就能在24小时内打造出一个与真人形象、语音非常逼真的数智分身。

图丨2D真人小样本数智人(来源:资料图)

据此得到的数智人,既支持半身或全身形象展示,又能根据内容调整动作、手势、口型、表情等,还支持任意更换录制背景,应用场景的适用性得到极大的增强。

事实上,2D小样本技术是由3D技术来提供支撑的。腾讯优图实验室研究总监汪铖杰表示:“小样本数智人从直观上感受是2D视频,背后其实是3D人像在做支撑。从‘文本/音频’信息到‘3D人像驱动’再到‘2D人像视频’的模式,通过3D人脸结构的先验信息引入,使数智人口型、表情更到位,让小样本数智人形象实现‘皱纹级’还原。”

与此同时,小样本的背后是“大”,也即基于自监督技术,构建大的数据和模型,用大模型持续消化语音、文本、口型等更多的数据。

从声音复刻上看,小样本数智人基于腾讯自研的新一代小样本音色制定技术,以及深度学习的声学模型及神经网络声码器,能够有效改善传统声学模型语音韵律单一、语调平淡的问题,进而提升语音合成的精细化水平。

此外,为了进一步提高小样本数智人的品质,腾讯还运用了包括高精度人像分割、人像美化、视线矫正等多项视觉AI技术。

加速数智人向千行百业普及,向行业开放数智人工厂生产能力

如上所述,小样本数字人具备基于真人形象定制、人人可用的特点。那么,如果面向的是整个行业或C端用户,又该如何才能为每一个人打造独立专属的数智人形象呢?

为了降低数智人制作门槛,加速数智人向千行百业的普及,腾讯云智能提出了“AI+数智人工厂”的方向。

首先,在基础设施即服务层面,基于腾讯云强大的算力体系,提供强有力的支撑。其次,依托腾讯云TI平台这个一站式低门槛、低代码的训练平台。基于TI-平台即服务的能力,构建标准化、工业化的数智人生产工厂。该工厂覆盖数智人生产的全流程环节,集成了十余种AI算法。未来,即便是没有研发经验的普通用户,也能自行操作并快速打造出属于自己的、近似真人的分身。

不仅如此,腾讯云智能还面向行业开放“产、销、服”的一体化平台,将数智人工厂的生产能力开放给整个行业,赋能到每一个个体。使用者可以在腾讯云上开设账号、上传素材、下订单,生产属于自己的数智分身。在进行效果确认之后,还能在交互服务平台、播报服务平台上使用,通过数智分身进行实时的视频生产和交互服务等。

与生态伙伴开展合作,打造定制化数智人解决方案

短短几个月,已经有十几家生态企业先后完成了腾讯云智能小样本数智人能力接入的签约,其中包括微媒数字会议、上海医微讯等企业。

作为一家产品咨询公司,微媒数字会议致力于为品牌提供营销活动数字化解决方案。其与腾讯云智能合作,为小红书营销讲师、拾意文化创始人苏歆打造了一个专属数智人,后者帮助苏歆完成了一套40多节培训课程的视频内容。

在此之前,同样的工作需要由包括稿件制作人、主讲人、拍摄人等在内的全套制作团队,用一个月的时间来完成。如今,不需要影棚、拍摄和背稿,只需通过数智人平台,输入语音或文本音频,即可快速批量生成由专属数智人出镜的系列课程视频,充分实现对视频内容产出的降本增效。

微媒数字会议创始人兼CEO天狐表示:“我们一直在和腾讯团队合作探索,如何帮助IP老师更快速地做出千变万化的内容视频,帮助媒体同学快速产出有意思的内容,避免同质化的内容在网上大面积传播。”

作为医疗行业数字技术的供应商,上海医微讯早期采用3D虚拟仿真技术,帮助医生进行手术模拟,帮助患者更好地学习和掌握医学知识,后来逐渐通过虚拟现实、AI直播等技术为医疗赋能。对于数智人在医疗领域的应用,该公司也有自己的想法。

首先,该希望通过数智人打通就医过程中各环节存在的障碍,比如,在就医者进入门诊大厅以后,帮助其快速挂号、诊室指引等。

其次,通过数智人为患者提供智能、情感的陪伴。比如,通过数智人声音克隆技术保存需要做喉部手术的患者的声音;为罹患老年痴呆的患者提供陪伴服务等。

同时,帮助医生开展医患教育和知识分享。比如,用数智人代替医生为患者进行相关知识的科普和培训。

此外,让更多的数智人扮演药企中的虚拟代表角色,促进药企的转型发展。

“这四个领域,赋能医生、赋能医院、赋能患者、赋能药企,每个场景都是巨大的,也是我们这样的公司希望一直能做的事情。”上海医微讯数字科技股份有限公司创始人兼CEO潘耿表示。

推动数智人应用快速落地,让其能以普惠化的发展形式走入千行百业,是腾讯云智能打造数智人业务的初心。未来,其将继续朝着提升自然语言处理、自动语音识别等AI技术、探寻丰富的应用场景、联合更多生态伙伴等方面前进,为数智人的发展开辟更广阔的空间。